﻿<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<title>„VietOCR“ – „Java“ pagrįsta grafinė sąsaja „Tesseract OCR“ moduliui</title>
</head>
<body>
    <div class="Section1">
        <h2 align="center">VietOCR</h2>
        <h3>PROGRAMOS APRAŠAS</h3>
        <p>„<a href="http://vietocr.sourceforge.net">VietOCR</a>“ yra „Java“ technologija pagrįsta grafinė aplinka, leidžianti naudotis „<a href="https://github.com/tesseract-ocr">Tesseract OCR</a>“ optinio ženklų atpažinimo moduliu ir yra skirta automatiškai atpažinti nuskenuoto rašto ženklus. Programa numato populiariausius vaizdų formatus, leidžia naudoti kelis ar daugiau puslapių viename vaizdo faile. Be to, programa gali papildomai aptvarkyti atpažintą tekstą, ištaisydama būdingiausias teksto atpažinimo metu pasitaikančias klaidas. Tai padeda pasiekti daug geresnės rezultato kokybės. Programa gali veikti ir terminalo ekrane, ją startuojant komandinėje eilutėje.</p>
        <p>Programoje numatytas ir urminis vaizdų apdorojimas. Programa gali stebėti nurodytą aplanką ir, jame atsiradus naujų failų, automatiškai juos apdoroti, o atpažintus tekstus įrašyti į rezultatams talpinti nurodytą aplanką.</p>
        <h3>REIKALAVIMAI SISTEMAI</h3>
        <p>„<a href="http://www.oracle.com/technetwork/java/javase/downloads/index.html">Java Runtime Environment 8</a>“ ar vėlesnė laida. On Windows, <a href="https://support.microsoft.com/en-us/help/2977003/the-latest-supported-visual-c-downloads">Microsoft Visual C++ 2015-2019 Redistributable Package</a> is also required.</p>
        <h3>PROGRAMOS ĮDIEGIMAS</h3>
        <p>„Tesseract“ vykdomasis failas „Windows“ aplinkai pateikiamas kartu su programa. Papildomi <a href="https://github.com/tesseract-ocr/tessdata">kalbinių duomenų paketai</a>, kurių vardai prasideda ISO639-3 kodais, turėtų būti talpinami į poaplankį <code>tessdata</code>.</p>
        <p>„Ubuntu Linux“ atveju „Tesseract“ ir šiai programai skirti kalbinių duomenų paketai yra paketų saugykloje „Grafika (universe)“. Juos galite įdiegti, pasinaudodami „Synaptic“ arba šia komanda:</p>
        <blockquote>
            <p><code>sudo apt-get install tesseract-ocr tesseract-ocr-eng tesseract-ocr-lit</code></p>
        </blockquote>
        <p>Įvykdžius šią komandą, programos failai bus įdiegti į aplanką <code>/usr/bin</code>, o kalbiniai duomenys – į <code>/usr/share/tesseract-ocr/tessdata</code>. Tuo atveju, jeigu „Tesseract“ kompiliuosite ir diegsite iš <a href="https://github.com/tesseract-ocr/tesseract/wiki">pirminių tekstų</a>, šie failai bus patalpinti atitinkamai į aplankus <code>/usr/local/bin</code> ir <code>/usr/local/share/tessdata</code>. Taip pat apie <code>tessdata</code> aplanko vietą programą „VietOCR“ galite informuoti, nustatydami <code>TESSDATA_PREFIX</code> aplinkos kintamojo reikšmę:</p>
        <blockquote>
            <p><code>export TESSDATA_PREFIX=/usr/local/share/</code></p>
        </blockquote>
        <p>Jeigu naudojatės čia nepaminėta platforma, išsamesnės informacijos rasite <a href="https://github.com/tesseract-ocr/tesseract/wiki">„Tesseract“ vikyje</a>.</p>
        <p>„VietOCR“ geba parsiųsti ir įdiegti kalbinių duomenų paketus kai kurioms kalboms; šia funkcija galite pasinaudoti, iškviesdami meniu <em>Nustatymai</em> punktą <em>Parsiųsti kalbinius duomenis</em>. Jeigu <code>tessdata</code> aplankas yra sisteminio aplanko (pvz., <code>/usr</code> „Linux“ sistemoje ar <code>C:\Program Files</code> „Windows“ sistemoje) viduje, kalbiniams duomenims įdiegti programą gali reikėti vykdyti administratoriaus teisėmis.</p>
        <p>Skenerio programiniam palaikymui yra naudojama „Windows Image Acquisition Library 2.0“ biblioteka.</p>
        <p>„Linux“ sistemoje, skenavimui reikia įdiegti SANE paketus:</p>
        <blockquote>
            <p><code>sudo apt-get install libsane sane sane-utils libsane-extras xsane</code></p>
        </blockquote>
        <p>PDF failų palaikymui naudojama „<a href="http://www.ghostscript.com/">GPL Ghostscript</a>“ priemonė.</p>
        <p>Rašybos tikrinimo funkcija galima panaudojant „Hunspell“ tikrintuvę, kurios <a href="http://wiki.services.openoffice.org/wiki/Dictionaries">žodynų</a> failai (<code>.aff</code>, <code>.dic</code>) turėtų būti patalpinti į aplanką <code>dict</code>, esantį „VietOCR“ programos aplanke. Be to, šiame aplanke galite sukurti UTF-8 koduoto teksto failą <code>user.dic</code> su papildomais žodžiais, nesančiais žodyne (vienas žodis eilutėje).</p>
        <p>„Linux“ sistemoje „Hunspell“ bei žodynus galite įdiegti, naudodamiesi programa „Synaptic“ arba <code>apt</code> įrankiu:</p>
        <blockquote><code>sudo apt-get install hunspell hunspell-en-us myspell-lt</code></blockquote>
        <h3>INSTRUKCIJOS</h3>
        <p>Programą paleisite tokia komanda:</p>
        <blockquote>
            <p><code>java -jar VietOCR.jar</code></p>
        </blockquote>
        <p><b><u>Pastaba</u></b>: jeigu susiduriate su atminties trūkumo problema, bandykite įvykdyti ne .jar failą, bet <code>ocr</code> scenarijų.</p>
        <p>Kalbinių duomenų failai yra generuojami konkretiems šriftams, todėl programai geriausiai sekasi atpažinti jai žinomais ar panašių glifų šriftais rašytus tekstus. Prireikus vaizduose atpažinti kitais šriftais rašytą tekstą, reikės „Tesseract“ programą papildomai <a href="https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract">apmokyti</a>, sukuriant naujus kalbos duomenų failus. Kiek išsamiau lietuviškai apie „Tesseract“ galite paskaityti <a href="https://dg.lapas.info/it/tesseract-ocr/">Donato Glodenio tinklaraštyje</a>.</p>
        <p>Ženklų atpažinimui teksto failo vaizdai turi būti nuskaitomi nuo 200 iki 400 taškų colyje raiška, naudojant juodai baltą arba pilkumo tonų veikseną. Aukštesnės raiškos vaizdai nebūtinai pagerins ženklų atpažinimo kokybę, kuri ir taip yra pakankamai aukšta, ir kitose „Tesseract“ laidose gali dar pagerėti. Reali ženklų atpažinimo kokybė priklauso nuo nuskenuoto vaizdo kokybės. Rekomenduojami parametrai skenuojamam vaizdui yra tokios: 300 taškų colyje, 1 bitas taškui (1bpp; juodai balta veiksena) arba 8 bitai taškui (8bpp; pilkumo tonai), vaizdą įrašant į neglaudintą TIFF arba PNG formato failą.</p>
        <p><em>Žemos raiškos (ekranvaizdžio) veiksena</em> įgalina pagerinti žemos raiškos vaizdų atpažinimo kokybę. Šioje veiksenoje, prieš atpažįstant tekstą, žemos raiškos (pvz. ekrano) vaizdų raiška padidinama iki 300 taškų colyje.</p>
        <p>Programa numato galimybę jau esamą teksto apdorojimo algoritmą papildyti savuoju. Pridėkite savo pritaikytą teksto ženklų pakeitimo schemą įrašytą UTF-8 koduotės faile <code>x.DangAmbigs.txt</code>, simbolį „x“ pakeisdami ISO639-3 standarto kalbos kodu (pvz., lietuvių kalbos kodas – „lit“). Keistinus teksto fragmentus nuo pakaitalų faile turėtų skirti tabuliacijos ženklas. Faile galima naudoti tiek paprastus keitinius, tiek reguliariuosius reiškinius.</p>
        <p>Papildomai įtakoti „Tesseract“ veikimą galite, įrašydami papildomus valdymo parametrus Į failus <code>tessdata/configs/tess_configs</code> (tik inicijavimo parametrus) ir <code>tess_configvars</code> (ne inicijavimo parametrus).</p>
        <p>Programoje įtaisyti įrankiai, kuriais galite sujungti keletą vaizdų arba PDF failų į vieną arba išskaidyti per daug puslapių turinčius TIFF ar PDF failus. Kartais patogiau apdoroti vieną failą, bet ne daug smulkių, o kartais, siekiant išvengti atminties stygiaus problemų, tenka padalinti vieną didelį failą į mažesnes dalis.</p>
        <h3>NUSKAITYTO TEKSTO APDOROJIMAS</h3>
        <p>Teksto atpažinimo klaidos paprastai gali būti skirstomos į tris kategorijas. Dauguma klaidų susiję su raidžių registru (pavyzdžiui, „šūVis“) – jos lengvai pataisomos bet kuria su unikodu koduotais tekstais gebančia dirbti tekstų rengykle. Kita klaidų rūšis susijusi su ženklų atpažinimo proceso problemomis, kai raidės supainiojamos dėl diakritinių ženklų arba formos panašumų. Tai nesunkiai pataisoma teksto rašybos taisymo programomis. Programoje įtaisyta nuskaityto teksto papildomo aptvarkymo funkcija leidžia pašalinti daugumą šių tipų klaidų.</p>
        <p>Trečiosios kategorijos klaidas aptikti sunkiausia, nes jos yra semantinės. Šių klaidų atveju atpažinti žodžiai yra gramatiškai teisingi, tačiau prie konteksto jie nedera (pavyzdžiui, „sala“ ir „sąla“). Tokias atvejais tik žmogus, perskaitęs sakinį ir supratęs jo kontekstą, gali sugrąžinti žodį, buvusį originaliame dokumente.</p>
        <p>Pateikiame instrukciją, kaip taisyti pirmos ir antros kategorijos teksto ženklų atpažinimo klaidas tiesiogiai programos lange:</p>
        <ol style="margin-top: 0in" start="1" type="1">
<li>sujunkite teksto eilutes. Po teksto atpažinimo kiekvienos eilutės gale atsiranda po eilutės skirtuką, nurodantį pastraipos pabaigą. Eilutėms sujungti pasinaudokite meniu „<i>Formatas</i>“ punktu „<i>Pašalinti eilučių skirtukus</i>“. Atkreipkite dėmesį, kad, kai tekstas yra eiliuotas (poezija ar pan.) to gali ir nereikėti;</li>
            <li>daugumą raidžių registro klaidų pašalinsite, pasirinkę meniu „<i>Formatas</i>“ punktą „<i>Keisti raidžių registrą</i>“ ir nurodę punktą „<i>Sakinio stilius</i>“. Tai atlikę, suraskite ir pašalinkite likusias raidžių registro klaidas;</li>
            <li>ištaisykite rašybos klaidas, pasinaudodami mygtuku „<i>Tikrinti rašybą</i>“.</li>
        </ol>
<p>Atlikus šiuos žingsnius, dauguma klaidų bus pašalintos. Likusios klaidos susiję su teksto semantika. Jos reikalauja žmogaus – tekstų redaktoriaus – pastangų. Redaktorius skaitys originalo tekstą ir ištaisys tas vietas, kuriose automatinis klaidų šalinimas negalėjo padėti.</p>
        <p>Jeigu turite kokių nors klausimų, kviečiame kreiptis anglų kalba į <a href="http://sourceforge.net/projects/vietocr/forums">„VietOCR“ naudotojų forumą</a>.</p>
        <hr>
</div>
</body>
</html>
